50 research outputs found

    High-level synthesis under I/O Timing and Memory constraints

    Full text link
    The design of complex Systems-on-Chips implies to take into account communication and memory access constraints for the integration of dedicated hardware accelerator. In this paper, we present a methodology and a tool that allow the High-Level Synthesis of DSP algorithm, under both I/O timing and memory constraints. Based on formal models and a generic architecture, this tool helps the designer to find a reasonable trade-off between both the required I/O timing behavior and the internal memory access parallelism of the circuit. The interest of our approach is demonstrated on the case study of a FFT algorithm

    Hardware Discrete Channel Emulator

    No full text
    International audienceIn this paper, the emulation environment named Hardware Discrete Channel Emulator (HDCE) has been developed as a coherent framework to emulate on a hardware device (FPGA as the implementation platform in the verification) and simulate on a computer the effect of an Additive White Gaussian Noise (AWGN) in a base band channel. The HDCE is able to generate more than 180 M samples per second for a very low hardware cost, which has been achieved in an efficient architecture. Using the HDCE, the performance evaluation of a coding scheme for a BER of 10−9 requires only one minute of emulation time

    Functional Validation of AADL Models via Model Transformation to SystemC with ATL

    No full text
    6 pagesInternational audienceIn this paper, we put into action an ATL model transformation in order to automatically generate SystemC models from AADL models. The AADL models represent electronic systems to be embedded into FPGAs. Our contribution allows for an early analytical estimation of energetic needs and a rapid SystemC simulation before implementation. The transformation has been tested to simulate an existing video image processing system embedded into a Xilinx Virtex5 FPGA

    Bitstreams Repository Hierarchy for FPGA Partially Reconfigurable Systems

    No full text
    In this paper we present a hierarchy of bitstreams repositories for FPGA-based networked and partially reconfigurable systems. These systems target embedded systems with very scarce hardware resources taking advantage of dynamic, specific and optimized architectures. Based on FPGA integrated circuits, they require a single FPGA with a network controller and less external memories to store reconfiguration software, bitstreams and buffer pools used by today's standard communication protocols. Our measures, based on a real implementation, show that our repository hierarchy is functional and can download bitstreams with a reconfiguration speed ten times faster than known solutions

    SynthÚse comportementale sous contraintes de communication et de placement mémoire pour les composants du TDSI

    Get PDF
    La conception de systÚmes complexes en traitement de l'image et du signal implique de réduire les coûts architecturaux et de maximiser les performances temporelles tout en considérant les contraintes de communication et d'accÚs mémoire durant la conception et l'intégration d'accélérateurs matériels dédiés. Malheureusement, les blocs matériels utilisés dans les flots de conception semi-automatiques traditionnels n'autorisent pas une flexibilité suffisante pour garantir cet objectif. Dans cet article, nous présentons une méthodologie et un outil qui autorisent la synthÚse d'applications en traitement du signal et de l'image sous contraintes de communication et de mémorisation. Basé sur un ensemble de modÚles formels, notre outil GAUT aide le concepteur à trouver un compromis entre performance et complexité architecturale

    Orcc's Compa-Backend demonstration

    Get PDF
    International audienceThis paper presents the implementation of a video decoding application starting from its dataflow and CAL representations. Our objective is to demonstrate the ability of the Open RVC-CAL Compiler (Orcc) to generate code for embedded systems. For the demonstration, the video application will be an MPEG-4 Part2 decoder. The targeted architecture is a multi-core heterogeneous system deployed onto the Zynq platform from Xilinx

    Plate-forme de prototypage rapide fondée sur la synthÚse de haut niveau pour applications de radiocommunications.

    No full text
    Semi-conductor very deep sub-micron technologies available today and single-die system integration complexity increase raise new methodological challenges in system design activities. Intensive reuse of pre-developed, or synthesized on demand, components reduce development time and thus design cost. Unfortunately, this reuse paradigm creates critical paths on long metallic wires between components. Local frequency optimization of each bloc can be lost when the inter-component communication network has poor performances. The theory of latency insensitive systems (LIS) recommends in this context a very promising solution based on a pseudo-asynchronous communication network and on synchronization wrapper models which encapsulate components and make them robust (insensible) to the communication asynchronisms. Nevertheless, one must state that the different wrapper architecture proposals are not speed and area efficient enough to be deployed in all conditions. This is particularly true when components have long computation latencies and process huge amount of data as we commonly find in digital radio-communications.We propose in this work a rapid prototyping platform architecture named PALMYRE. It is dedicated to digital radio-communications and integrates into its system platform part a new version of the high-level synthesis tool GAUT. We first study computing and communication constraints for DVB-DSNG applications. Secondly, we survey the most recent prototyping methodologies and we take a count of the current prototyping platforms in use. We retain the platform based prototyping/design methodology as the most sound basis and rely on its tree steps architecture (hardware, software and system platforms) to guide our platform design. The platform we propose is composed of computing nodes (C6x DSPs and VirtexE FPGAs) and point to point communication links able to reach a sustained bandwidth of 3 Gbit/s. We develop a C++ API for the DSPs and VHDL hardware interfaces which allow a mixed DSP/FPGA prototype to efficiently communicate between nodes. We also propose an API performances characterization method enabling to determine best running conditions in term of memory, packet size and communication programming style (synchronous vs asynchronous).The integration of GAUT into the system platform allows to semi-automatically synthesize components specified at the algorithmic level. These are also called virtual IPs. They naturally communicate through our API and hardware interfaces and exploit the computing and communication resources from the hardware and software platforms. This integration into a CAD flow is possible thanks to two distinct contributions. First, we introduce the theory of latency insensitive systems inside the communication units synthesized by GAUT. It allows to preserve the local frequency optimizations of components when designing a whole system with synthesized IPs. To reach this objective we present a new wrapper model and call it a synchronization processor. We prove experimentally its better speed and area performances compared to the current best finite state machines architectures of wrappers. Then, we design a new multi-banks memory unit which main benefit is to support the algorithmic-level pipelining introduced by GAUT when simple hardware parallelism is not sufficient to sustain an applicative sampling cadency. This memory unit handles data transfers for all pipeline stages and dynamic address computation while accessing the different instances of duplicated variables.Thanks to these new communication and memory units, GAUT is successfully used in a project targeting the design of a DVB-DSNG modem. This is the RNRT ALIPTA project. The companies Arexsys, Sacet, Thales Communications and Turboconcept whith the ENSTB and the LESTER have worked on several digital IPs and validated their integration into an existing DVB-DSNG processing chain. A close study of synthesis results proves that up to 90% of area savings and from 10 to 30% of frequency increase can be obtained when the wrappers are implemented with our synchronization processors. We conclude that, in the context of a system design methodology based on intensive virtual IP reuse, area reduction, optimal frequencies preservation, easier composition of processing chains based on synchronous blocs and possibility to migrate to multi-chips modules solutions are four key advantages enabled by the integration of GAUT in the PALMYRE system platform.L'avĂšnement des technologies sub-microniques profondes de fabrication des semi-conducteurs et l'accroissement de la complexitĂ© des systĂšmes intĂ©grables sur une seule puce ont pour consĂ©quence de faire apparaĂźtre de nouveaux dĂ©fis mĂ©thodologiques en conception de circuits au niveau systĂšme. La rĂ©utilisation intensives de composants prĂ©-dĂ©veloppĂ©s, ou synthĂ©tisĂ©s Ă  la demande, permet de rĂ©duire les temps de dĂ©veloppement et donc le coĂ»t de conception. Malheureusement, cette rĂ©utilisation fait aussi apparaĂźtre des chemins critiques sur les pistes mĂ©talliques de grandes longueurs qui connectent les composants entre eux. L'optimisation locale des frĂ©quences de fonctionnement de chacun des blocs peut alors ĂȘtre rĂ©duite Ă  nĂ©ant par les mauvaises performances du rĂ©seau de communication inter-composants. C'est dans ce contexte que la thĂ©orie des systĂšmes insensibles Ă  la latence (LIS) propose une solution trĂšs prometteuse fondĂ©e sur un rĂ©seau de communication pseudo-asynchrone et des modĂšles de wrappers de synchronisation qui encapsulent les composants pour les rendre insensibles aux asynchronismes des communications. On doit nĂ©anmoins constater que les diffĂ©rentes propositions actuelles d'architectures de wrappers ne sont pas suffisamment performantes en surface et en vitesse pour ĂȘtre exploitĂ©es dans toutes les conditions. Cela est particuliĂšrement vrai lorsque les composants ont des latences de calcul importantes et de grandes quantitĂ©s de donnĂ©es Ă  traiter comme on en trouve communĂ©ment en radiocommunications numĂ©riques.Nous proposons dans ce mĂ©moire une architecture de plate-forme de prototypage rapide, nommĂ©e PALMYRE, pour applications de radiocommunications numĂ©riques qui intĂšgre dans sa composante systĂšme une nouvelle version de l'outil de synthĂšse de haut niveau GAUT. Pour cela, nous Ă©tudions tout d'abord les contraintes en terme de puissance de calcul et de communication des applications de type DVB-DSNG, puis les diffĂ©rentes mĂ©thodologies de prototypage actuellement pratiquĂ©es et enfin inventorions les plates-formes de prototypage les plus rĂ©centes. Nous retenons la mĂ©thodologie de conception/prototypage orientĂ©e plate-forme comme fondement et nous nous appuyons sur sa dĂ©composition en plates-formes matĂ©rielle, logicielle et systĂšme pour guider la conception de notre plate-forme de prototypage rapide. La plate-forme matĂ©rielle que nous proposons est constituĂ©e de nƓuds de calcul de type DSP C6x, de composants programmables de type Virtex et de liaisons point Ă  point capables d'atteindre des dĂ©bits de l'ordre de 3 Gbit/s. Nous concevons en C++ une interface logicielle (API) pour DSP et en VHDL RTL des interfaces matĂ©rielles pour FPGA qui permettent Ă  une architecture mixte DSP/FPGA de communiquer efficacement. Nous caractĂ©risons notre API et proposons une mĂ©thodologie de mesure de performances dont le but est de dĂ©terminer les conditions optimales (allocation mĂ©moire, taille des paquets, mode de programmation synchrone/asynchrone) de fonctionnement d'un systĂšme qui exploite au mieux la plate-forme matĂ©rielle. L'intĂ©gration de l'outil GAUT Ă  la plate-forme systĂšme permet de synthĂ©tiser semi-automatiquement des composants de niveau algorithmique, ou IPs virtuels, qui s'interfacent naturellement au travers de notre API et des interfaces matĂ©rielles. Cette intĂ©gration dans un flot CAO de niveau systĂšme est rendue possible grĂące a deux contributions distinctes. Tout d'abord, l'introduction de la thĂ©orie des LIS dans l'unitĂ© de communication des circuits synthĂ©tisĂ©s par GAUT autorise la synthĂšse de composants rapides dont la frĂ©quence n'est pas pĂ©nalisĂ©e par le rĂ©seau de communication. Pour cela, nous proposons un nouveau modĂšle de wrapper que nous nommons processeur de synchronisation et nous prouvons par l'expĂ©rience ses meilleures performances en surface et en vitesse par rapport aux meilleures architectures Ă  base de machines d'Ă©tats finis. Ensuite, nous concevons une nouvelle unitĂ© de mĂ©morisation multi-bancs dont le principal bĂ©nĂ©fice est le support du pipelining d'algorithme que l'outil GAUT est susceptible de mettre en Ɠuvre lorsque la contrainte de temps est telle que la simple mise en parallĂšle de plus de matĂ©riel ne suffit plus pour tenir une cadence applicative. Cette unitĂ© de mĂ©morisation assure, pour les diverses tranches du pipeline, le calcul d'adresse dynamique lors des accĂšs mĂ©moires aux multiples instances des variables qui nĂ©cessitent une duplication. GrĂące aux nouvelles unitĂ©s de communication et de mĂ©morisation, l'outil GAUT est mis en Ɠuvre avec succĂšs dans le contexte de conception du modem DVB-DSNG du projet RNRT ALIPTA, menĂ© conjointement par les sociĂ©tĂ©s Arexsys, Sacet, Thales Communications, Turboconcept ainsi que l'ENSTB et le LESTER. L'Ă©tude approfondie des rĂ©sultats de synthĂšse prouve que des gains importants en surface de l'ordre de 90 % et des gains en vitesse de l'ordre de 10 Ă  30% sont obtenus pour les wrappers grĂące Ă  leur implantation sous la forme du processeur de synchronisation que nous proposons. Dans le cadre d'une mĂ©thodologie de rĂ©utilisation intensive d'IPs virtuels, l'optimisation de la surface, la prĂ©servation des frĂ©quences optimales des blocs, la composition aisĂ©e de chaĂźnes de traitements Ă  base de blocs synchrones et la possibilitĂ© de migration vers une solution de type multi-puces (Multi Chip Module) sont les quatre principaux avantages qu'illustre l'intĂ©gration de GAUT dans le flot CAO de la plate-forme systĂšme PALMYRE

    Comparison entre une architecture matérielle dédiée et un GP-GPU pour l'optimisation

    No full text
    L'expĂ©rience prĂ©sentĂ©e concerne la mise en Ɠuvre de calculateurs parallĂšles " bas coĂ»t " pour accĂ©lĂ©rer l'exĂ©cution d'algorithmes d'optimisation. Nous avons ciblĂ© deux types de calculateurs : les GP-GPU et les calculateurs sur mesure que l'on peut concevoir et embarquer dans des circuits intĂ©grĂ©s programmables (FPGAs)
    corecore